Subset Accuracy

작성: sangseek | 게시 날짜: 2026/03/01 | 조회수: 59

[ 편집불가 ]

Subset Accuracy(또는 Exact Match Ratio)는 다중 라벨 분류(multilabel classification)에서 사용되는 엄격한 성능 지표로, 예측한 라벨 집합이 실제(정답) 라벨 집합과 완전히 일치하는 경우에만 해당 샘플을 정답으로 간주합니다. 즉, 한 샘플에 대해 예측된 라벨 집합이 정확히 동일하면 1, 그렇지 않으면 0을 주고, 전체 샘플에 대해 평균을 냅니다. 정의(수식): Subset Accuracy = (1/N) * sum_{i=1..N} I(Y_i = Ŷ_i) 여기서 N은 샘플 수, Y_i는 i번째 샘플의 실제 라벨 집합, Ŷ_i는 예측 라벨 집합, I는 동일하면 1, 아니면 0인 지시함수입니다. 특징 및 해석 - 매우 엄격함: 하나의 라벨이라도 다르면 그 샘플은 전부 틀린 것으로 처리됩니다. - 해석이 직관적: “모든 라벨을 정확히 맞춘 비율”을 나타냄. - 라벨 수가 많거나 라벨 조합 다양성이 큰 문제에서는 값이 낮아질 가능성이 큼(부분적으로 맞춘 경우가 많아도 전체 일치가 드물기 때문). - 라벨별 성능(예: Hamming loss, per-label precision/recall, F1)과는 다르며, 이들 지표는 부분 일치나 라벨별 성능을 반영함. 예시 - 실제: {A, B}, 예측: {A, B} → 해당 샘플은 1 - 실제: {A, B}, 예측: {A} → 해당 샘플은 0 작은 데이터에서 예: N=3, 실제 [{A}, {A,B}, {}], 예측 [{A}, {B}, {}] → Subset Accuracy = (1 + 0 + 1)/3 = 2/3. 언제 사용해야 하는가 - 애플리케이션에서 “정확히 모든 라벨 조합을 맞추는 것”이 중요할 때 적합(예: 특정 질환의 정확한 조합을 판별해야 하는 의료 진단 등). - 반대로 부분적 정답을 인정하거나 라벨별 성능을 알고 싶다면 Hamming loss, example-based precision/recall/F1, micro/macro F1 등 다른 지표를 함께 보는 것이 좋음.

내용이 부정하다면 싫어요를 누르세요.